DAY29 - Transformer訓練細節參考Attention Is All You Need - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 29

AI & Data

利用SeamlessM4T學習語音辨識架構及應用系列第 29 篇

DAY29 - Transformer訓練細節參考Attention Is All You Need

15th鐵人賽 seamlessm4t

AlbertShiu

2023-10-14 10:53:13

462 瀏覽

分享至

根據 Attention Is All You Need 論文，節錄並了解其訓練模型細節，作為自行訓練模型時的參考。

訓練資料和批次

使用標準 WMT 2014 英語-德語資料集進行訓練，該資料集包含約 450 萬個數據句子對。句子使用位元組對編碼進行編碼，目標詞彙量約37000個。至於英語-法語，使用了更大的 WMT 2014年英語-法語資料集，由 3600 萬個句子組成，並將標記拆分為 32000 個單字片段詞彙。句子對按大致序列長度分批在一起。每次訓練批次包含一組句子對，其中包含大約 25000 個來源標記和 25000 個目標token。

硬體和時間表

配備 8 個 NVIDIA P100 GPU 訓練模型。對於我們的基本模型使用根據整篇論文描述的超參數，每個訓練步驟大約需要 0.4 秒。我們對基礎模型進行了總計 100,000 步或 12 小時的訓練。對於我們的大模型，步驟時間為 1.0 秒。大模型接受了 30 萬步的訓練（3.5 天）。

正規化

訓練期間採用三種類型的正規化：

*Illia Polosukhin, “Attention Is All You Need”, 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.